The Innovation | 语言模型在蛋白质表示和蛋白质设计领域的应用与挑战
导
读
蛋白质的序列-结构-功能关系一直是分子生物学的重要研究内容,其中序列是决定结构和功能的分子基础。这里,我们总结了蛋白质表示和设计的各种方法。蛋白质表示模型可以根据序列信息准确预测蛋白质的诸多特性,例如稳定性、结合力、亲和力等。蛋白质设计模型可以根据需要设计出自然界不存在的人工蛋白质,这将彻底改变药物和人工酶开发。
图1 基于蛋白质的序列-结构-功能关系实现蛋白质表示和蛋白质设计
ChatGPT(https://chat.openai.com)的出现引起了巨大的轰动,上线两个月用户破亿,改变了人们对通用人工智能(Artificial General Intelligence,AGI)的预期。ChatGPT的底层技术——语言模型,在蛋白质领域也有广泛的应用。AlphaFold2之所以能够仅仅根据序列就准确预测蛋白质的结构,就是因为采用了注意力机制和Transformer架构。注意力机制最早是Google在2017年论文“Attention Is All You Need”里提出的,后来被广泛用于自然语言处理(Natural Language Processing, NLP)。ChatGPT、GPT-4依赖的大语言模型(Large Language Model, LLM)本质上仍然属于自然语言处理的范畴。
蛋白质是由20种氨基酸组成的一段序列,可以类比于一段由单词组成的句子。氨基酸对应于单词,蛋白质序列对应于句子。基于这样的设定,可以借用成熟的自然语言处理技术来分析蛋白质序列。语言模型在蛋白质领域主要有两大应用:蛋白质表示(Protein Representation)和蛋白质设计(Protein Design)。
蛋白质表示是指如何用一个固定长度的数字向量来表示不同长度不同氨基酸排列的蛋白质序列。最早研究者根据氨基酸组成(Composition)来表示蛋白质。后来,发现有些氨基酸某些性质相似,可以进行简并,提出了伪氨基酸组成。但是氨基酸和伪氨基酸组成没有考虑顺序,研究者开始关注氨基酸的转换(Transition)和分布(Distribution)。由于蛋白质折叠趋向能量最低构象,所以基于能量的表示也被广泛使用。随着生物大分子功能研究的深入,大家开始对蛋白质进行功能位点和结构性质的注释,比如保守性、修饰位点、活性位点、无规则区域等。后来,基于网络的表示方式被提了出来,并且在蛋白质稳定性预测方面取得了很好的效果。网络特征是对特定蛋白质的相互作用网络邻居进行功能富集,得到该蛋白质潜在影响的生物学功能。
随着深度学习的发展,尤其是语言模型的发展,超过20种蛋白质表示学习的方法被提出来,包括ProtVec、SeqVec 、ProtBERT、T5-XL-BFD、T5-XL-U50等。基于这些蛋白质表示方法,我们可以实现对蛋白质性质的预测。
既然可以根据序列预测结构和功能,那可否根据结构和功能的需求反向设计蛋白质序列呢? 借助语言生成模型,我们不仅可以做到机器人聊天、智能问答,还可以用在蛋白质设计,生成我们需要的人工蛋白质。蛋白质设计的目标可以是特定的结构,比如字母或者数字(https://cdn.generatebiomedicines.com/video/alphabet_padded.mp4),或者是特定的功能,比如某种酶。中国科技大学刘海燕团队开发的SCUBA,华盛顿大学David Baker团队开发的RoseTTAFold Diffusion,Generate Biomedicines公司开发的Chroma,Salesforce Research公司开发的Progen都是目前代表性的蛋白质设计方法,更多的方法可以在https://github.com/Peldom/papers_for_protein_design_using_DL找到。
生成蛋白质序列之后,我们可以使用AlphaFold2、ESMFold、RoseTTAFold 、Uni-Fold 、MEGA-Protein等工具预测蛋白质结构,也可以使用高通量筛选技术验证人工设计蛋白质的生物学功能。
总结与展望
蛋白质研究目前仍然面临着三大挑战:(1)蛋白质的动态性:各种突变、修饰和无序区域的变化都可能改变蛋白质结构和功能;(2)蛋白质的特殊性:目前的方法严重依赖对数据的训练,针对特定蛋白质,需要根据具体应用场景建立相应的高质量数据集和独特分析方法;(3)蛋白质的普遍性:我们能否仅仅根据计算破解蛋白质的结构和功能,摆脱对训练数据的依赖,找到蛋白质的最终规律,实现类似从数据驱动的AlphaGO到规则驱动的AlphaZero的飞跃?
责任编辑
邢曦雯 暨南大学
王 师 中国海洋大学
扫二维码|查看原文
原文链接:https://www.cell.com/the-innovation/fulltext/S2666-6758(23)00074-7
本文内容来自Cell Press合作期刊The Innovation第四卷第四期以Perspective发表的“Current progress, challenges, and future perspectives of language models for protein representation and protein design” (投稿: 2023-02-15;接收: 2023-05-18;在线刊出: 2023-05-20)。
DOI: https://doi.org/10.1016/j.xinn.2023.100446
引用格式:Huang T., and Li Y. (2023). Current progress, challenges, and future perspectives of language models for protein representation and protein design. The Innovation. 4(4),100446.
作者简介
黄 涛,中国科学院上海营养与健康研究所研究员。研究方向为生物医学大数据的机器学习和网络分析。发表论文100余篇,累计引用超过1.3万次。主编了Methods in Molecular Biology丛书Computational Systems Biology - Methods and Protocols、Precision Medicine、Liquid Biopsies等,担任超过30份期刊的编委或客座编辑。连续多年入选Elsevier中国高被引学者和全球前2%顶尖科学家榜单。
https://scholar.google.com.hk/citations?hl=en&user=N6meTgoAAAAJ
李亦学,广州实验室特聘研究员,国家生物数据中心体系粤港澳大湾区节点平台首席科学家兼主任。研究方向为生物信息学和系统生物学、肿瘤基因组学、生物医学数据库构建和数据分析算法、疾病动物模型基因组学、精准医学。在Science,Nature,Nature Genetics,Nature Biotechnology,Lancet,Cancer Cell,Cell Stem Cell等杂志发表论文300篇以上,引用2.3万次以上。
https://scholar.google.com.hk/citations?user=Qv27G1cAAAAJ
往期推荐
| |||
|
| |||
| |||
| |||
| |||
|
期刊简介
扫二维码 | 关注期刊官微
The Innovation是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊:向科学界展示鼓舞人心的跨学科发现,鼓励研究人员专注于科学的本质和自由探索的初心。作者来自全球54个国家;已被123个国家作者引用;每期1/5-1/3通讯作者来自海外。目前有196位编委会成员,来自21个国家;50%编委来自海外;包含1位诺贝尔奖获得者,37位各国院士;领域覆盖全部自然科学。The Innovation已被DOAJ,ADS,Scopus,PubMed,ESCI,INSPEC,EI等数据库收录,2022年影响因子为32.1,CiteScore为23.6。秉承“好文章,多宣传”理念,The Innovation在海内外各平台推广作者文章。
期刊官网:
www.the-innovation.org
www.cell.com/the-innovation
期刊投稿(Submission):
www.editorialmanager.com/the-innovation
商务合作(Marketing):
marketing@the-innovation.org
Logo|期刊标识
See the unseen & change the unchanged
创新是一扇门,我们探索未知;
创新是一道光,我们脑洞大开;
创新是一本书,我们期待惊喜;
创新是一个“1”,我们一路同行。
第4卷第3期 | 第4卷第2期 | 第4卷第1期 | 第3卷第6期 |
第3卷第5期 | 第3卷第4期 | 第3卷第3期 | 第3卷第2期 |
第3卷第1期 | 第2卷第4期 | 第2卷第3期 | 第2卷第2期 |
第2卷第1期 | 第1卷第3期 | 第1卷第2期 | 第1卷第1期 |